Extraction de Phrases Préfabriquées des Interactions à partir d’un corpus arboré du français parlé : une étude exploratoire
نویسندگان
چکیده
Dans cette étude exploratoire, nous intéressons aux Phrases Préfabriquées des Interactions (p. ex. c’est clair ; je te jure on dirait ). Après avoir défini ce type de phrase, évaluons dans quelle mesure le corpus arboré Orféopeut être exploité pour extraire et caractériser ces éléments. Les résultats l’analyse qualitative montrent que repérage phrases parenthétiques apparaît plus complexe les clausatifs (propositions indépendantes). Nous montrons aussi comment l’outil Lexicoscope permet, en exploitant la combinatoire lexico-syntaxique distribution éléments entre à l’intérieur tours parole, mieux cerner caractéristiques préfabriquées.
منابع مشابه
Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical
This work focuses on the concept of lexical context that is central to the historical approach of bilingual lexicon extraction from specialized comparable corpora. First, we revisit the two main strategies dedicated to lexical context characterization, that rely on the use of window-based and syntactic-based representations. We show that the combination of these two representations has a partic...
متن کاملExtraction des itemsets fréquents à partir de données évidentielles : application à une base de données éducationnelles
Résumé. Dans cet article, nous étudions le problème de l’extraction des itemsets fréquents (EIF) à partir de données imparfaites, et plus particulièrement ce qu’on appelle désormais les données évidentielles. Une base de données évidentielle stocke en effet des données dont l’imperfection est modélisée via la théorie de l’évidence. Nous introduisons une nouvelle approche d’EIF qui se base sur u...
متن کاملExtraction de Règles de Classification à partir des Données Spatiales
Résumé. La fouille de données spatiales est un processus d’exploration des connaissances implicites dans des bases de données volumineuses à références spatiales. Le caractère géométrique des objets que ces bases de données représentent rend le processus d’extraction de la connaissance plus compliqué contrairement aux bases de données numériques traditionnelles. Les algorithmes de la fouille de...
متن کاملTraduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français
The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence lev...
متن کاملVisualisation des motifs séquentiels extraits à partir d'un corpus en Ancien Français
Les travaux présentés dans cet article répondent aux besoins d’une experte médiéviste souhaitant découvrir des connaissances nouvelles dans un corpus de textes écrits en Ancien Français. Les connaissances extraites à partir de ce corpus sont sous forme de motifs séquentiels. Dans notre contexte, un motif séquentiel est une suite ordonnée d’itemsets (phrases). Un itemset est un ensemble d’items ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: SHS web of conferences
سال: 2022
ISSN: ['2261-2424', '2416-5182']
DOI: https://doi.org/10.1051/shsconf/202213810002